長文コンテキスト + ICL論文
論文情報
タイトル:In-Context Learning with Long-Context Models: An In-Depth Exploration
発行日:2024年4月
著者:Amanda Bertsch et al
所属:Carnegi Mellon Univ, Google DeepMind
論文のポイント
分類データセット
https://scrapbox.io/files/664ec3a79dc1cb001ddf3e65.png
モデル
Llama2シリーズ
Llama2 (4096)
Llama2-32K
Llama2-80K
Mistral-7b (32K)
論文を読んで感じたこと
実際にどうする?
概要
その結果、ラベル空間の大きい多くのデータセットでは、数百または数千のデモンストレーションによってパフォーマンスが向上し続けることがわかりました。これを、事例検索およびファインチューニングと対比します。事例検索(Example Retrieval)は、コンテキスト長が短い場合は優れたパフォーマンスを示しますが、デモンストレーションが増えるにつれて向上は見られなくなります。ファインチューニングはICLよりも多くのデータを必要としますが、追加のデータを使用すると、長文コンテキストICLのパフォーマンスを上回る場合があります。本稿では、このICL設定をテストベッドとして使用し、コンテキスト内学習と長文コンテキストモデルの両方の特性を調査します。長文コンテキストICLは、短文コンテキストICLよりもランダムな入力シャッフルの影響を受けにくく、同じラベルの事例をグループ化するとパフォーマンスに悪影響を与える可能性があり、見られるパフォーマンスの向上は、多くの事例を一緒にエンコードすることによる累積的な向上によるものではないことを示します。長文コンテキストICLは驚くほど効果的である場合がありますが、この向上は、タスクの学習というよりも、類似の事例への参照によるものであると結論付けています。 1 導入
いくつかの事例がインコンテキストで提供されると、大規模言語モデルは多くのタスクを妥当な精度で実行できます。この現象の背後にある正確なメカニズムについては疑問が残りますが、インコンテキスト学習(ICL)のパラダイムは、実装が容易であること、計算コストが比較的低いこと、単一のモデルをタスク間で再利用できることから、学術分野と産業界の両方のアプリケーションで広く採用されています。
しかし、この分野のほとんどの研究は、コンテキスト長によってデモンストレーションの最大数が厳しく制限される、短文コンテキストモデルに焦点を当ててきました。
まさに。入力トークン制限があるから、例の数も限られるよね。
ますます多くの方法が、極端なコンテキスト長に言語モデルを適応させるために開発されるにつれて(とりわけ(Deepmind, 2024; Fu et al., 2024))、大量のデータに対するインコンテキスト学習は、ファインチューニングに代わる潜在的な選択肢となります。このレジームにおけるICLの特性は十分に理解されていません。さらに、数千のトークンに対する推論のコストは高くなる可能性があるため、多重ショットICLと、同じデータに対する微調整との間の効率性とパフォーマンスのトレードオフは複雑です。 本稿では、長文コンテキストのインコンテキスト学習について体系的な調査を実施します。すなわち、
a) ベースモデルをナイーブにプロンプトするパフォーマンス
b) 各テスト事例に対してインコンテキストで使用する事例を取得する
d) より長いコンテキストに適応するようにトレーニングされたモデルの使用
について検討します。パフォーマンスは2000件を超えるデモンストレーションの後も向上し続け(図1を参照)
https://scrapbox.io/files/664ec2a4bc83ae001c81b514.png
同じデータセットから数千件の事例で(LoRA(Hu et al., 2022)を使用して)微調整されたモデルのパフォーマンスに近づき、場合によってはそれを上回ります(§3)。
インコンテキストのデモンストレーションの数が極端に増加すると、ICLの動作が変化することがわかりました(§4)。インコンテキスト学習は事例の順序に対する感度が低下し、ランダムなデモンストレーションセットを使用した場合と比較して、検索の利点が減少します。これにより、推論事例ごとにカスタムのデモンストレーションセットを再エンコードするのではなく、モデルを通じて一度エンコードされ、キャッシュされた単一のデモンストレーションセットを使用できます。長文コンテキストICLは、同じラベルの事例をグループ化することによって大きく影響を受けることを示します。また、長文コンテキストICLの有効性は、エンコード中の決定境界の継続的な絞り込みによるものではなく、より関連性の高い事例からの検索によるものであることもわかりました(§5)。本稿は、インコンテキスト学習の理解を深め、一部のデータレジームでは、長文コンテキストICLが検索や微調整に代わる強力な選択肢であることを示唆しています。
2 実験設定
ここでは、ICL実験と微調整実験の間で共有される設定について説明します。各設定については、導入される際に詳しく説明します。
2.1 データセットとモデル
5つの分類データセット、TREC(Hovy et al., 2001)、TREC-fine(Hovy et al., 2001)、NLU(Xingkun Liu & Rieser, 2019)、Banking-77(Casanueva et al., 2020)、Clinic-150(Larson et al., 2019)を検討します。表1は、各データセットのサマリー統計を示しており、付録Eは、各データセットの詳細な説明と例を示しています。
https://scrapbox.io/files/664ec3a79dc1cb001ddf3e65.png
長文コンテキスト用に適合させたLlama2-7bのいくつかのバリアントでICLのパフォーマンスを比較します。 Llama2は、4096のコンテキスト長でトレーニングされたデコーダのみのモデルです。長文コンテキストの微調整のベースモデルとしてより一般的に使用されていること、および初期の実験でチャットと非チャットのバリアント間で非常によく似たパフォーマンスが観察されたことから、非指示(非チャット)バリアントを使用します。
Llama2-32k(TogetherAI, 2023)は、TogetherAIによって32kのコンテキストウィンドウ用に微調整されたLlama-2-7bのバージョンです。非指示バージョンを使用します。
Llama2-80k(Fu et al., 2024)は、80kのコンテキストと、慎重に設計された長文ドキュメントデータの組み合わせを使用して微調整されたLlama-2-7bのバージョンです。
観察された傾向がLlamaシリーズに固有のものではないことを確認するために、さらにMistral-7b-v0.2(Jiang et al., 2023)を検討します。非指示モデルは公開されていないため、指示バージョンを使用します。Mistral-7B-Instruct-v0.2のトレーニングされたコンテキスト長は32kトークンです。 これらのモデルはすべて、トレーニングされたコンテキスト長よりも長い入力に外挿できますが、入力の長さを制限して、トレーニングされたコンテキスト長内に収まるようにします。これは、外挿戦略による混乱がない、最良のパフォーマンスを表しています。
2.2 制約付きデコード
各データセットについて、制約付きデコードを使用して、有効なラベルのみを出力として生成します。論文のすべてのICLの結果は、すべての方法において、この制約付きデコードを使用しています。制約付きデコードを使用しないと、これらのモデルは、Few-Shotで無効なラベルを生成する可能性があることに注意してください。微調整の場合、分類ヘッドを使用するため、無効な出力は生成されません。 2.3 評価
先行研究に従い、各データセットのテストセットから250件の事例をサンプリングします。サンプリングされたテストセットと、各実験の完全な予測出力は、プロジェクトリポジトリで公開しています。全体的なパフォーマンスと少数クラスのパフォーマンスの両方を捉えるために、各データセットをaccuracyとマクロF値/F1スコアで評価します。両方のメトリックの傾向は非常によく似ているため、読みやすくするために、論文では主にaccuracyを報告します。 3 長文コンテキストICL
大規模なデータセットを使用するための3つの一般的な方法、すなわち、コンテキストで使用する固定のサブセットをナイーブにサンプリングする方法、推論時に各事例に関連するデータを検索する方法、データセット全体で微調整する方法について検討します。
3.1 比較設定
ランダムサンプリングICL トレーニングデータセットの10個のランダムシャッフルを使用し、これらのシャッフルにわたる結果を平均します。モデル間およびコンテキスト内のさまざまな数のデモンストレーションにわたって、各シャッフルの最初のn個の事例を描画します。この設定では、デモンストレーションのエンコードを1回実行し、すべての推論事例にわたってキャッシュできます。
検索ICL インコンテキスト学習の強力な代替手段は、各テストセット事例のデモンストレーションとして、関連する事例のサブセットを検索することです。この設定では、ストップワードが削除されたBM25(Robertson & Zaragoza, 2009)リトリーバーを使用し、テスト入力テキストを完全なデモンストレーションテキストと比較することにより、最も関連性の高いデモンストレーションを取得します。kショットのプロンプトを実行すると、リトリーバーによって取得された事例がk件未満の場合4、kに達するまで事例をランダムに追加サンプリングします。事例を取得した順序で配置する場合と、3つのランダムシャッフルで配置する場合を比較します。新しい取得済みデモンストレーションセットをテストセット事例ごとにエンコードする必要があるため、これはランダムサンプルをデモンストレーションとして使用する場合よりも計算コストが高くなります。ただし、先行研究では、シナリオによっては、適切な事例を取得することで、ほぼゼロから高いテスト精度までの違いが生じる可能性があることがわかっています(Levy et al., 2023)。
微調整 いくつかのランダムシードを使用して、各データセットからさまざまな量のデータで分類ヘッドを使用してLlama2-7bを微調整し、同じ保持されたテストデータに対する収束時のパフォーマンスをプロットします。各ラベルの最初のトークンの値をサブサンプリングすることにより、事前トレーニングされた言語モデリングヘッドのパラメータから分類ヘッドを初期化します。これは、微調整のためのランダムよりも優れた初期化を作成します。微調整手順の詳細については、付録Dを参照してください。
4これは、テスト事例と単語の重複が(ストップワードの重複を除く)k件未満の事例が存在する場合に発生します。
3.2 インコンテキストの結果
ICLを多くの事例にスケールアップすると、驚くほど優れた結果が得られます 図1と表2は、両方のインコンテキスト学習設定におけるモデルのパフォーマンスを示しています。インコンテキスト学習を10件から1000件のデモンストレーションにスケールアップすると、精度は最大50.8ポイント向上します(5つのデータセット全体で平均36.8ポイント)。
コンテキストが長いほど、インコンテキストで事例を慎重に選択することの重要性が低下します 各テストセット事例に関連する事例を取得すると、ランダムに選択されたサブセットを使用する場合よりも、短文コンテキストレジームでははるかに優れたパフォーマンスが得られます。これは、取得した事例の順序が(関連性によって順序付けられるのではなく)シャッフルされている場合でも当てはまります5。ただし、事例を追加すると、パフォーマンスはわずかに向上し続けます。これは、些細ではない語彙の重複を持つすべての事例が取得された後、残りの事例がランダムに選択されるため、特に驚くべきことです。
ほとんどのデータセットでは、取得はランダム選択よりも優れたパフォーマンスを維持していますが、その効果は事例を追加すると減少します。検索が最も効果的なデータセットであるBanking-77では、検索によるパフォーマンスの向上は、1ショットICLでは51.5ポイントから、1500ショットICLでは4.9ポイントに低下します。これは、インコンテキストの事例の数が増えるにつれて、選択戦略の重要性が低下することを示唆しています。長文コンテキストレジームでは、計算効率は高いが効果は低い、ランダムに選択された単一のデモンストレーションセットを使用する戦略の方が実現可能性が高くなります。そうすることによるパフォーマンスのペナルティは、改善の5ポイント以内であり、(TRECの2000ショットICLの場合)1.8ポイントという低い値です。
3.3 微調整との比較
数百または数千の事例を使用したインコンテキスト学習が効果的であることを示してきましたが、この量のデータはモデルの微調整にも適しています。微調整は前もってのコストは高くなりますが、推論時のコストを削減できます。このセクションでは、インコンテキスト学習と、一般的なパラメータ効率の高い微調整(PEFT)戦略であるLoRA(Hu et al., 2022)を比較します。
5取得した入力の3つのランダムシャッフルを実行し、元の結果からの分布の違いをテストします。すべてのデータセットにおいて、このシャッフルはパフォーマンスに大きな変化をもたらしません(両側t検定、p < 0.05)。
PEFTはICLよりも多くのデータを必要とします。特に、検索を使用したICLではそうです 比較的少数の事例が利用可能な場合、ICLは、一般に、同じモデルでLoRA微調整よりも優れたパフォーマンスを発揮します6。
ほとんどのデータセットでは、微調整のパフォーマンスは、追加の事例を使用した場合でも、長文コンテキストICLのパフォーマンスを超えることはありません(例:図2a)。例外はTRECとTREC-fineであり、微調整は最も多い事例数でICLよりも優れたパフォーマンスを発揮しますが(例:図2b)、少ない事例数では依然として劣っています。一般に、ラベル空間の大きいデータセットは、微調整のパフォーマンスが最も低くなります。これは、これらがよりオープンエンドの分類問題であり、分類器のトレーニングにより多くのデータを必要とするためと考えられます。
一部のデータセットでは、PEFTは全体的に勝ちます。80kモデルがコンテキストに収容できるよりも多くの事例を使用した微調整では、パフォーマンスが向上します。PEFTのパフォーマンスがICLのパフォーマンスを超えることのないデータセットでは、同様のパフォーマンスに対して推論コストが大幅に削減されています。したがって、推論の効率性が最優先事項である場合、4096件の事例で微調整する方が、1000件でプロンプトするよりも優れている場合があります。これは、デモンストレーションのエンコードを推論事例間でキャッシュできる場合でも、デモンストレーションの長文コンテキストへの相互注意はコストがかかるためです。
4 長文コンテキストICLの特性
このセクションでは、長文コンテキストICLの特性を、短文コンテキストICLの既知の特性と比較します。さらに、付録Bでは、長文コンテキストモデルの特性のテストベッドとしてICLを使用することを検討しています。
コンテキスト全体を使用するのが最適ですか? 先行研究では、いくつかの単純なタスクでは、入力を追加するとパフォーマンスが低下する可能性があることが示唆されています(Levy et al., 2024)。ただし、ほぼすべてのデータセットでパフォーマンスが単調に増加することが観察されています。パフォーマンス曲線がフラット化し始めると、小さな変動が発生しますが、事例数が多い場合、パフォーマンスが大幅に低下することはありません。フルコンテキストウィンドウを使用すると計算コストがかかり、これらのデータセットで高パフォーマンスを達成するために必要ない場合もありますが、パフォーマンスに悪影響を与えるようには見えません。また、重要なのはキーバリューペアをキャッシュしてテストサンプル間で再利用できるため、より多くの入力による追加コストは最小限です。
事例の順序に対する感度 先行研究では、多くのモデルが、インコンテキストでの事例の順序に強い感度を示すことが示されています(Lu et al., 2022)。入力の順序を変更したときに変化する予測の割合を測定することにより、これを調べます。入力事例のセットごとに3つの再シャッフルでこれを平均します。図3は、すべてのコンテキスト長である程度の事例の順序に対する感度がありますが、この効果はコンテキストが追加されると大幅に弱まります。すべてのデータセットにおいて、1000ショットICLで再シャッフルによって反転するラベルの割合は、10ショットICLで再シャッフルによって反転するラベルの割合の半分未満です。
ラベルのソート また、事例の順序付けに関する敵対的なケースも検討します。同じラベルの事例が一緒に表示されるように、事例をソートします。事例数が少ない場合、これはほとんど影響しません。クラスごとの平均事例数が少ない場合、ラベルのソートはランダムソートに似ています。ただし、事例数が増えるにつれて、ラベルのソートはパフォーマンスに劇的な影響を与え始めます。図4は、ラベルのソートありとなしの場合の、Clinic-150に対するLlama2-32kのパフォーマンスを示しています。インコンテキストの事例数が増えるにつれて、入力のソートによるペナルティも増加します。1169ショットICLでは、ラベルのソートによって精度は25.7パーセントポイント低下します。これは、異なるラベルの事例のコンテキスト化がパフォーマンスにとって重要であり、このコンテキスト化はコンテキストウィンドウ内の比較的短い距離でしか効果的に行われないことを示唆しています。
5 なぜ長文コンテキストICLは役立つのか?
モデルのパフォーマンスが長いコンテキスト長で向上する背後にある根本的なメカニズムを調査するために、デモンストレーションが近くのデモンストレーションの小さなブロックにしか注意を向けることができない、変更された注意パターンを検討します。ラベルを予測しようとしているテスト事例は、常にすべてのデモンストレーションに注意を向けることができます。図5は、このブロックアテンションを通常の因果アテンションと比較したものです。
パフォーマンスの向上が、主に、多くの事例を一緒に埋め込むことによる、よりきめ細かいタスク理解の開発(たとえば、モデルの微調整が行うように、決定境界を継続的に絞り込む)によるものである場合、多くの事例を小さなブロックでエンコードすると、すべてを一緒にエンコードするよりもはるかに悪い結果になります。改善が主に、注意を向けるためのより関連性の高い事例を見つけることによるものである場合、パフォーマンスは、各デモンストレーションがコンテキスト化される他の事例の数に大きく依存するべきではありません。これは、より長いコンテキストを処理するために同じ位置に複数の埋め込みをオーバーロードする方法とは異なります(例:Ratner et al. (2022))。ここでは、位置情報を変更せず、デモンストレーション間の注意をローカルコンテキストブロックに制限するだけです。
コンテキストウィンドウを固定長のチャンクに分割するのではなく、ブロックごとに事例の数を修正します。ブロックサイズがインコンテキストの事例の数と等しい場合、これは通常の注意と同じです。ブロックサイズが1の場合、各事例はそれ自体にしか注意を向けることができません。
図6は、Banking-77とClinic-150の結果を示しており、すべての事例に対する完全な注意と、事例の単一のブロックに対する完全な注意の両方が比較されています。
非常に小さなブロック(たとえば、銀行の場合、5件未満の事例)に注意を向けると、固定された少数の事例に注意を向けるよりもパフォーマンスが低下します。これは、各事例のコンテキスト化が不十分なため、情報の少ない埋め込みになるためだと考えています。ただし、パフォーマンスはすぐに向上します。Banking-77の場合は50件の事例のブロックによって、Clinic-150の場合は75件の事例のブロックによって、完全な注意のパフォーマンスの95%が回復します(より一般的には、これはすべてのデータセットで20〜75件の事例のブロックサイズ間で発生します)。データセット/モデルのペアによっては、ブロックアテンションのパフォーマンスが、完全な注意のパフォーマンスをわずかに上回る場合もあります。
多くの事例を一緒にエンコードすることの利点のどれだけがタスクの学習によるものかを判断するために、事例がラベルでソートされたICLのケースを検討します。ブロックアテンションの場合、これにより、ほとんどのブロックに、1つのラベルのみが表される事例が含まれるようになります。事例をラベルでソートすると、ブロックアテンションの場合にもパフォーマンスに悪影響が及びますが、ブロックされたアテンションモデルに対する悪影響は、完全なアテンションモデルに対する悪影響よりも大きくなりません。これは、ラベルでソートされたケースのほとんどのブロックに2つ以上のラベルが表示されないため、モデルのパフォーマンスの大部分は、各ブロックで決定境界を学習して集約することによるものではないことを示唆しています。これは、長文コンテキストモデリングによるパフォーマンスの向上の主な理由は、エンコード中の大規模なデモンストレーションセット内の相互注意ではなく、予測中の長文コンテキストからの検索によるものであるという理論を裏付けています。これは、表2の検索結果によっても裏付けられています。この結果では、短いコンテキストでの検索パフォーマンスは、非常に長いコンテキストのICLのパフォーマンスに近くなっています(ただし、それを超えることはありません)。
長文コンテキストが役に立たないタスク 本稿と並行して、Li et al. (2024)は、長文コンテキストが一様に役立つとは限らない一連のタスクを特定しています。ただし、この傾向を示すタスクは、短いデモンストレーション長でパフォーマンスがほぼゼロであるか、短いコンテキストスケールでも逆のパフォーマンストレンドを示します(たとえば、TacRED(Zhang et al., 2017)の場合、パフォーマンスは合計で1〜10のデモンストレーションで低下します)。これらは言語モデルの重要な失敗モードですが、分析では、これらの混乱を招く問題のないタスクに限定します。Li et al. (2024)と本稿の両方に共通するデータセットの1つであるBanking-77では、どちらの論文も、コンテキストを追加するとパフォーマンスが向上するという同様の傾向を観察しています。
6 関連研究
長文コンテキストを使用したデコーダのみのモデルの強化 過去数年間に、言語モデルのコンテキストを拡張するための多くの方法が導入されてきました。一連の研究は、位置埋め込みの外挿戦略に焦点を当てています(Peng et al., 2023; Rozière et al., 2024; Chen et al., 2023; Liu et al., 2023; Zhu et al., 2024; Xiao et al., 2024; Han et al., 2024)。事前トレーニングの長さを超えて外挿する場合、モデルは一般に、長文コンテキストデータに対する追加の微調整からもメリットがあります(Xiong et al., 2023)。その他の方法としては、検索ベースのアテンションの追加(Bertsch et al., 2023; Tworkowski et al., 2023; Yen et al., 2024)や、情報の階層的マージ(Song et al., 2024; YU et al., 2023)などがあります。本稿で検討する2つの長文コンテキストのLlamaバリアントは、どちらも長さの外挿のための微調整の例です。
別々に、ICLのコンテキストを長くするための方法も提案されています。並列コンテキストウィンドウ(Ratner et al., 2022)と構造化プロンプト(Hao et al., 2022)は、より多くのデモンストレーションをエンコードするために、同じ位置埋め込みを複数回再利用する方法を提案しています。これは、重複するウィンドウの数が増えるにつれて収益が減少しますが、少数の重複に対しては非常に効果的です。Cho et al. (2023)は、ICLと線形プロンプトのハイブリッドを提案しており、これは数ショットICLのパフォーマンスを超えて改善します。
長文コンテキストモデルの有効性を批判する研究もいくつかあります。Liu et al. (2024)は、一部の長文コンテキストモデルがコンテキストウィンドウの中央を効果的に使用できないことを示しています。本稿で使用したモデルはこの研究の後にリリースされたものであり、トレーニングされたコンテキスト長では、一般に、コンテキストの中央の検索のスコアが高くなっています。Li et al. (2023a)は、一部の長文コンテキストモデルは、コンテキストウィンドウの想定されるサポートされている長さよりも短い入力を使用する場合にのみ効果的であると示唆しています。本稿では、この影響は強く観察されていませんが、一部のモデルでは、インコンテキストの最大事例数に達する前にパフォーマンスが飽和する原因となる可能性があります。Li et al. (2023b)は、多くのモデルが、長い依存関係の長さに対する推論を必要とするタスクで失敗することを示しています。これは、本稿の設定では問題になる可能性は低いでしょう。
インコンテキスト学習の特性 Milios et al. (2023)は、最大4kのコンテキスト長のモデルを使用して、多クラス分類のICLを調査しています。彼らは、デモンストレーションを取得する場合、小さい(7b)モデルは多くのタスクで早期にパフォーマンスが飽和することを発見しました。これは、検索を使用したLlama2-7bの本稿の結果と一致しています。ただし、同じモデルは、ランダム選択の場合、デモンストレーションから学習し続けます。また、より長いコンテキスト用に微調整された同じサイズのモデルは、同じパフォーマンスの低下を示さず、いくつかのタスクで追加のコンテキストからの改善が見られます。本稿の結果は、より長いコンテキストを効果的に使用できないことは7bモデルに固有の特性ではなく、デモンストレーションの質が十分に高い場合にこの特定のモデルで使用される一種の浅いヒューリスティックであることを示唆しています。
Xu et al. (2023)は、ICLのパフォーマンスに対する、グラウンドトゥルースラベル、入力分布、および説明の影響を調査しています。Bölücü et al. (2023)は、特定のドメインにおける事例選択の影響を調査しています。Lin & Lee (2024)は、ICLがタスクの学習とタスクの検索という2つのモードで発生すると主張しており、類似しているが完全に正しくはないタスクの検索によって、ICLのパフォーマンスが数ショットレジームで1回ピークに達し、その後、はるかに多くの事例でパフォーマンスが再び向上するという「初期の上昇」動作を説明できると主張しています。同様に、Pan et al. (2023)は、タスクの認識とタスクの学習の区別を主張し、タスクの学習は、大規模な場合、追加の事例から引き続きメリットを受けると示唆しています。von Oswald et al. (2023)は、インコンテキスト学習は勾配降下と見なせると示唆していますが、Deutch et al. (2024)はこの解釈に反対しています。Hendel et al. (2023)は、インコンテキスト学習を、デモンストレーションを入力から出力にマッピングする「タスクベクトル」に圧縮するものと見なしています。ブロックエンコードの驚くべき有効性は、最初は、この理論とは反対のように見えますが、別々のブロックから複数の類似したタスクベクトルが学習され、最終的な予測のために注意によってアンサンブルされる可能性もあります。
本稿と並行して、Agarwal et al. (2024)は、Gemini 1.5の多重ショットプロンプトを調査し、分類タスクと生成タスクの両方で、数ショット設定からの改善を示しています。本稿は、複数のオープンソースモデルの評価、同じベースモデルの微調整との比較、長文コンテキストの動作分析のためのテストベッドとしてのICLの使用において異なります。
インコンテキスト学習と微調整の比較 Min et al. (2022a)は、数ショット学習でトレーニングされたモデルが、新しいタスクで数ショット学習を実行するように一般化できることを示しています。場合によっては、これは、新しいタスクで直接微調整するよりも優れたパフォーマンスを発揮します。Mosbach et al. (2023)は、微調整とICLをより直接的に比較しています。彼らは、16事例のICLと、同じ16事例での微調整を比較すると、微調整は、一般に、ドメイン内とドメイン外の両方で、同じ数の事例を使用したICLよりも優れたパフォーマンスを発揮することを発見しました。彼らの設定は、モデルの選択(OPT)、考慮されるデータの量(ICLの場合は16、微調整の場合は16または128)、PEFTではなく完全な微調整の使用において、本稿の設定と異なります。Liu et al. (2022)は、T-fewメソッドと20〜70個のサンプルを使用して、エンコーダデコーダモデルを言語モデリングの目的で微調整する場合、PEFTは一般にICLよりも優れたパフォーマンスを発揮することを発見しました。Asai et al. (2023)は、クロスリンガル転送におけるmT5の微調整とICLを比較し、調査したタスクの一部でICLが微調整よりも優れたパフォーマンスを発揮することを発見しました。本稿の知る限りでは、インコンテキストに数百または数千の事例がある多重ショットレジームにおける、微調整とICLの相対的なパフォーマンスを検討した先行研究はありません。
7 結論
大規模なデモンストレーションセットを使用したICLは驚くほど効果的である可能性があり、その動作におけるいくつかの驚くべき特性に光を当ててきました。すなわち、長文コンテキストICLは、事例の選択への依存度が低く、事例の順序に関して比較的安定したパフォーマンスを示し、多くの場合、同じデータに対するパラメータ効率の高い微調整に近づいたり、それを上回ったりします。これらの特性はすべて、さまざまなタスクにとって魅力的なオプションとなっています。また、長文コンテキストICLの有効性は、エンコード中の大規模なデモンストレーションセット内の相互注意ではなく、予測中の長文コンテキストからの検索に大きく起因することも示しました。
本稿はまた、ICLの理解が不完全なままであることも強調しています。ICLの背後にある潜在的なメカニズムを調査した研究は多数ありますが、これらの研究は主に、デモンストレーションセットが小さい(10事例未満)単純なタスクに焦点を当てています。本稿の研究で示されているように、ICLの特性はデモンストレーションセットの規模によって変化するため、より大きな規模でICLに関する仮説を検証するには、さらなる研究が必要です。
先行研究では、新しいタスクに対して推論を実行するための2つの戦略、すなわち、タスク固有のデータに対する微調整と、コンテキストで使用するデータのサブセットの選択に焦点を当ててきましたが、本稿の結果は、3番目のパラダイム、すなわち、できるだけ多くのデータをコンテキストに収めるようにモデルを適応させ、長文のデモンストレーションセットのエンコードをキャッシュして再利用することを示唆しています。データがコンテキストの長さを大幅に超えている場合は、完全なデータセットを使用した微調整が依然として強力なオプションですが、本稿の結果は、長文コンテキストICLが効果的な代替手段であり、微調整時のコストを増加させて推論時の計算を削減することを示唆しています。非常に長いモデルコンテキスト長を使用することの有効性と効率性は向上し続けているため、長文コンテキストICLは多くのタスクにとって強力なツールになると考えています。
謝辞
本稿に関する有益な議論をしていただいた、Vijay Viswanathan氏、Sewon Min氏、Akari Asai氏、Xiang Yue氏、Simran Khanuja氏に感謝申し上げます。
この研究は、Yandex Initiative for Machine Learning、Len Blavatnik氏とBlavatnik Family財団、およびEuropean Research Council(ERC)からの助成金(助成金番号ERC DELPHI 802800)、欧州連合Horizons 2020の研究とイノベーションプログラムの下で部分的に支援されました。ABは、助成金番号DGE2140739のNational Science Foundation Graduate Research Fellowship Programからの助成金によって支援されました。MIは、Israeli Council of Higher Educationの支援にも感謝いたします。この資料に記載されている意見、調査結果、結論、または推奨事項は、すべて著者のものであり、必ずしもスポンサーの見解を反映しているわけではありません。
参考文献
(参考文献は省略)